Проект РНФ № 12-34-567890 – заявка в удобном для чтения формате

Обновлено: 14.06.2023

Форма 1. Сведения о проекте

1.1. Название проекта

Технологии мобилизации первичной информации о распространении и разнообразии живых организмов: из литературного наследия в озеро данных

=Primary data on diversity and distribution biological organisms: techniques of mobilization from literature legacy to digital lake

1.2. Приоритетное направление

Приоритетное направление развития науки, технологий и техники в Российской Федерации, критическая технология

Направление: 6. Рациональное природопользовани

Технология: 19. Технологии мониторинга и прогнозирования состояния окружающей среды, предотвращения и ликвидации ее загрязнения.

1.3. Ключевые слова

Информатика биоразнообразия, экология, зоология, биогеография, геоинформационные технологии, ГИС, пауки, Araneae, Урал

Английский:

!_1.4. Аннотация проекта

!_1.5. Ожидаемые результаты и их значимость

ГИПОТЕЗЫ!!!

1.7. Планируемый состав научного коллектива


1. Созонтов Артём Николаевич, 33 года, к.б.н. (руководитель). Институт экологии растений и животных УрО РАН, научный сотрудник (трудовой договор)
2. Иванова Наталья Владимировна, 33 года, к.б.н. (исполнитель). Институт математических проблем биологии – филиал Института прикладной математики им. М.В. Келдыша РАН, старший научный сотрудник (трудовой договор).
3. Соколова Софья Сергеевна, 27 лет (исполнитель). Ильменский государственный заповедник УрО РАН, младший научный сотрудник (трудовой договор), к моменту начала проекта предполагается начать обучение в аспирантуре Института экологии растений и животных УрО РАН.
4. Устинова Анастасия Леонидовна, 23 года (исполнитель). Пермский национальный исследовательский университет, аспирант.

Соответствие профессионального уровня членов научного коллектива задачам проекта

Созонтов А.Н. в течение последних 10 лет занимается фауной, экологией и биогеографией пауков, последних 5 лет – информатикой биоразнообразия, обработкой и анализом данных, пространственной эколгией, геоинформационными технологиями, а также читает по этим направлениям курсы для студентов бакалавриата, магистрантов и аспирантов. По результатам этой работы опубликовано более 10 работ в журналах, индексируемых в списках WoS/Scopus и одна монография. Разработал несколько авторских скриптов и онлайн-приложений для управления данными о биоразнообразии. В дополнение к научно-педагогической деятельности занимается популяризацией науки о живой природе.

Иванова Н.В. более 15 лет работает в области информатики биоразнообразия и закономерностей пространственного распределения живых организмов. Последние 10 лет активно занимается повышением квалификации отечественных исследователей в отношении стандартов и качества данных о распространении и разнообразии живых организмов. Обеспечивает организационную и техническую поддержку национального портала, посвященного открытым данным о биоразнообразии. На эти темы в журналах, индексируемых в списках WoS/Scopus Иванова Н.В. опубликовала более 10 статей только за последние 5 лет.

Соколова С.С. выпускница пермской арахнологической школы и имеет 5 научных публикаций. Работает в системе природоохранных организаций, в дополнение к этому занимается популяризаторской деятельностью, повышает свою квалификацию в области организации Citizen Science проектов, участвуя в круглых столах, вебинарах, онлайн и .

Устинова АЛ. аспирантрка пермской арахнологической школы, владеет навыком работы в библиографичеких информационных системах. При консультационной поддержке А.Н. Созонтова освоила стендарты данных о биоразнообразии и методы работы с ними.

1.12. Возможность использования результатов

Информация о возможности использовании результатов выполнения проекта в осуществлении хозяйственной деятельности предприятий Российской Федерации, в том числе о способе использования, о намерениях по внедрению на основании прогнозируемых результатов проекта новой или усовершенствованию производимой продукции (товаров, работ, услуг), новых или усовершенствованных применяемых технологий; о формировании по итогам реализации проекта научных и технологических заделов, обеспечивающих экономический рост и социальное развитие Российской Федерации (с приложением подтверждающих документов, при наличии)

На основе полученного набора данных для крупных регионов возможен мониторинг состояния окружающей среды и природных ресурсов по биологическому контролю за насекомыми-фитофагами. Это позволит оценить текущий биологический и экономический эффект для сельского и лесного хозяйства, а также спрогнозировать величину этого эффекта при других технологиях хозяйствования и/или изменении климата. Эти оценки могут стать теоретической основой для принятия управленческих решений как на частном уровне, так и на административном. Кроме того, разработанные технологии вовлечения больших данных в общедоступный оборот помогут разработать аналогичные наборы данных для других регионов и групп живых организмов.

Форма 2. Сведения о руководителе

2.10. Основные научные результаты руководителя проекта за период с 1 января 2017 года

Научная деятельность

Обобщены и проанализированы многолетние сборы пауков в Удмуртской Республике, в т.ч. предложен комплексный подход к синэкологическому анализу группировок пауков, соответствующий общемировым трендам в количественной обработке данных [Созонтов, 2018]. Полученный первичный материал, снабженный экспертными и аналитическими оценками по каждому из четырех сотен видов, представлен в традиционном формате в виде монографии [Sozontov, Esyunin, 2022], а также в виде набора данных по стандарту DarwinCore [Sozontov, 2021]. Эти же наработки применены к многолетним данным пауков Висимского биосферного заповедника [Sozontov, Esyunin, Ukhova, 2023 in print]. Выявлены первые стадии восстановления паукообразных и жужелиц после снижения выбросов медеплавильного завода, описана их специфика [Бельская и др., 2023 in print; Созонтов и др., 2022]. Проанализированы многолетние изменения β-разнообразия сообществ мелких млекопитающих в зоне действия медеплавильного завода в контексте снижения количества выбросов [Mukhacheva, Sozontov, 2021]. При непосредственном участии А.Н. Созонтова первые в России начаты исследования функционального разнообразия членистоногих почвы и напочвенной подстилки [Малых, Созонтов, 2022]. Предложил аналитический алгоритм для оценки коэффициентов сходства и мер расстояния [Rodionov, Sozontov, 2020; Родионов, Созонтов, 2019] – основы кластерного, ординационного и других форм анализа многовидовых сообществ. Разработаны частные решения по сопоставлению данных разного формата, качества и происхождения [Созонтов, 2023]. В качестве эксперта по обработке и стандартизации данных о биоразнообразии принял участие в двух териологических проектах [Mukhacheva, Davydova, Sozontov, 2022; Гасилин и др., 2021].

Научно-организационная и просветительская деятельность

Принял участие в организации пяти всероссийских научных мероприятий («Экология: факты, гипотезы, модели. Конференция молодых ученых, 2019, 2021, 2022, 2023, организатор, член комиссии, редактор сборника; VII полевая школа по почвенной зоологии и экологии, 2021, секретарь) и одного международного (IV Международное арахнологическое совещание «ArachnoMeeting», 2021, председатель). На профильной арахнологической секции апробирован и согласован план проекта по мобилизации данных [Созонтов, 2022]. Разработал ряд онлайн-приложений по управлению данными о биоразнообразии: конвертор табличных данных в формат DarwinCore (sozontov.shinyapps.io/gbif), тип `occurrence`; приложение для поиска и картографической визуализации микологических находок Евразии; комплексная карта-приложение по первичным данным о различных компонентах биоты в условиях точечного промышленного загрязнения тяжелыми металлами. Совместно с центром популяризации биоразнообразия «НатУРАЛист» занимается популяризацией с 2019 года: проводит до 4 энтомологических экскурсий за летний сезон, читает публичные лекции в зимний период.

Педагогическая деятельность

Преподает в Уральском федеральном университете (с 2019 г. по наст.вр., предметы: «Модели в экологии», «Современные методы обработки данных»), преподавал в Удмуртском государственном университете (c 2016 по 2019 г., предметы: «Математические методы в биологии», «Компьютерные технологии в биологии», «Полевая практика по биоразнообразию»). В должности старшего преподавателя отдела аспирантуры ИЭРиЖ УрО РАН преподаёт аспирантам второго и третьего года обучения (предметы «Статистическое сопровождение экологических исследований» и «Современные методы обработки данных» соответственно). Руководил работой над магистерскими диссертациями (2), дипломной работой специалиста (2), дипломными работами бакалавров (8).

Форма 4. Содержание проекта

4.1. Научная проблема

Научная проблема, на решение которой направлен проект

Проект направлен на решение проблемы возврата первичных данных о разнообразии живых организмов в оборот многократного использования. Будучи однажды полученными, они не всегда оказываются опубликованными в печати, существуя только на музейных этикетках, в полевых дневниках, лабораторных журналах и других рукописях. В случае же их публикации в традиционном формате, возможности многократного использования все равно существенно осложнены рядом одновременно требуемых условий: 1) знать о существовании каких-то публикаций (эта проблема со временем становится лишь острее в связи с экспоненциальным ростом количества научных публикаций [Bornmann, Haunschild, Mutz, 2021] и журналов [Thelwall, Sud, 2022]); 2) получить текст публикаций (если информация не в тексте, а в приложении, тогда и приложение к статье тоже необходимо получить); 4) владеть языком, на котором дана информация; 5) вручную переписать или скопировать информацию; 6) привести информацию из разных источников «к общему знаменателю». Даже когда все требования соблюдены, это отнимает огромное количество времени, на порядки задерживает скорость работы и скорость накопления доступных для использования данных.

Существуют технические средства, использование которых снимает все обозначенные выше затруднения и даёт возможность получать колоссальные объёмы данных посредством поисковых запросов через пользовательский интерфейс, API или консольные запросы. Однако здесь появляется новая проблема – эти самые данные уже должны быть оцифрованы (а также стандартизированы и вычищены) и представлены в БД [Созонтов, 2023]. Предлагаемый проект прокладывает мост между прошлым и будущим, по которому массивы открытых данных о биоразнообразии смогут пополняться ценнейшей информацией из литературного наследия, в настоящий момент неиндексируемой и необнаружимой средствами поиска.

4.2. Научная значимость

Научная значимость и актуальность решения обозначенной проблемы

Более 10 лет назад стала очевидной глубокая зависимости фундаментальной экологии (и на локальном, и на глобальном уровне) от высококачественных данных по широкому спектру таксонов и регионов. Бек с соавторами [Beck и др., 2012] считают вопросы аккумуляции и использования данных одним из четырех ключевых направлений современной экологии и биогеографии. Они, будучи оцифрованными, качественными и проиндексированными, служат важной основой для решения множества фундаментальных и прикладных проблем, позволяя даже с традиционными подходами работать в глобальном масштабе [Hoogen и др., 2020; Phillips и др., 2021] и/или в высоком пространственном разрешении [Keil, Chase, 2019].

Собственно говоря, агрегирование данных изначально было одной из задач науки о биоразнообразии, пусть и не всегда формулируемой в явном виде [Ball-Damerow и др., 2019; Nelson, Ellis, 2018]. В ряде случаев решение этой задачи осложнено или невозможно (см. раздел 4.1): данные однажды получены, но остаются неиндексируемыми и необнаружимыми. Возвращение таких «темных данных» в научный оборот – одно из ключевых направлений развития науки в XXI в. [Heidorn, 2008], что в полной мере касается и наук об окружающей среде [Amano, Lamming, Sutherland, 2016]. В сравнении с другими «большими вызовами», здесь нет концептуальных проблем, но сам процесс рутинный и трудоёмкий. Необходимы оригинальные решения по его интенсификации и популяризации.

Для данных о биоразнообразии сейчас существуют агрегаторы (см. раздел 4.5) и разработанные научным сообществом стандарты, например DarwinCore [Wieczorek и др., 2012], HumboldtCore [Guralnick, Walls, Jetz, 2018; Schneider и др., 2019] и др. Это чрезвычайно важный этап, благодаря которому решение множества экологических вопросов продвинулось далеко вперед, опубликованы десятки тысяч статей. Тем временем все ещё большой объем данных остается не отражен в агрегаторах, а сами они – изолированны друг от друга [Feng и др., 2022], пока лишь некоторые из них работают над взаимной интеграцией. Специалисты ожидают, что именно эти проблемы будут решены на следующем этапе крупного приращения знаний о биоразнообразии Земли, через интеграцию баз данных о биоразнообразии и вовлечение в них упускаемых пока что «темных данных» [König и др., 2019; Hobern и др., 2019]. Впрочем, достаточность этих двух задач вызывает сомнения, поскольку это само по себе напрямую не приводит к аналогичному увеличению объема знаний и глубины понимания экологических закономерностей [Feng и др., 2022]. Соответственно, необходимы новые подходы, облегчающие поиск, доступ, интеграцию и повторное использование данных о биоразнообразии.

Важно отметить, что специалисты по информатике биоразнообразия не считают глобальные порталы-агрегаторы способными удовлетворить все потребности в данных. Необходимость национальных и даже региональных ресурсов обусловлена их возможностями учитывать местную специфику природных условий и приоритетных [Belbin, Williams, 2015; Schulman и др., 2021]. Это полностью релевантно и для России, и для её регионов [Ivanova, Shashkov, 2017].

4.3. Конкретные задачи

Конкретные задачи в рамках проблемы, на решение которой направлен проект, ее масштаб и комплексность

  1. Разработка веб-приложения для занесения литературных данных о находках пауков

  2. Запуск Citizen Science проекта по оцифровке литературных данных о разнообразии и распространении пауков Урала и Предуралья

  3. Разработка методов машинного обучения для оцифровки литературных данных и сравнение их эффективности с Citizen Science проектом

  4. Интеграция оцифрованных данных с внешними ресурсами и источниками по условиям среды, филогении и функциональным признакам (traits) пауков

  5. Размещение полученного набора данных в сети и организация открытого доступа к нему

Масштаб работы. Перечисленные задачи полностью находятся в рамках общенаучного тренда на размещение в открытых репозиториях и базах данных всей первичной информации. С использованием пауков уральского региона в качестве примера, будут созданы и отлажены технологии мобилизации данных о находках живых организмов и интеграции этих БД с другими ресурсами. Разработанные технологии могут быть успешно масштабированы до любого региона и/или адаптированы для других групп живых организмов.

Комплексность работы. Проект является междисциплинарным, на стыке классических наук о жизни (экологии, зоологии, биогеографии) и науки о данных, а также содержит элементы популяризации. Исполнители имеют классический естественно-научный бэкграунд (все), высокую квалификацию по информатике биоразнообразия и обработке данных (Созонтов А.Н., Иванова Н.В.) и опыт популяризаторской деятельности (Созонтов А.Н., Соколова С.С., Устинова А.Л.).

!_4.4. Научная новизна

Научная новизна исследований, обоснование того, что проект направлен на развитие новой для научного коллектива тематики, обоснование достижимости решения поставленной задачи (задач) и возможности получения предполагаемых результатов

4.5. Современное состояние исследований

Современное состояние исследований по данной проблеме, основные направления исследований в мировой науке и научные конкуренты

FAIR-принципы, data reuse, стандарты и чистота данных

Необходимость сбора новых данных и многократного из использования не вызывает сомнений в экологической академической среде [Reichman, Jones, Schildhauer, 2011]. Одни исследователи отмечают интенсивный (и даже экспоненциальный) рост объема биоданных [Bisby, 2000; Hobern и др., 2019], другие – активно эти данные используют в своей работе, сводя к минимуму усилия на обработку больших объемов литературы и/или полевые фазы исследования [Ball-Damerow и др., 2019]. В качестве примеров реализации такого масштабного подхода можно привести публикации по растениям Европы за последнее столетие [Staude и др., 2022], глобальным паттернам разнообразия растений [Cornwell и др., 2019], распространению и охране птиц [Sullivan и др., 2017], по миграциям животных высоких широт [Davidson, Ruhs, 2021], теории и практике охраны природы [Di Minin, Correia, Toivonen, 2022] и многие другие.

В основе успешного многократного использования данных лежат принципы FAIR – Findability (обнаружимость), Accessibility (доступность), Interoperability (совместимость), Reusability (возможность повторного использования), в сформулированные почти 10 лет назад [Wilkinson и др., 2016]. По реализации почти всех принципов достигнут существенный прогресс посредством агрегаторов, индексирования и даже устоявшегося лицензирования [Escribano, Galicia, Ariño, 2018], и только «совместимость» по-прежнему пребывает фазе активной разработки. Примеров успешной асимметричной (однонаправленной и/или с ограничениями по формату) интеграции достаточно много [Feng и др., 2022]. Полностью симметричная интеграция, по-видимому, невозможна, т.к. каждый ресурс имеет свои уникальные решения и архитектурные особенности.

Нередко разные подходы к решению одних задач снижают чистоту данных. Одни базы данных проявляют гибкость по отношению к номенклатуре, другие более консервативны, что препятствует совместимости. Пространственные данные тоже быть причиной рассогласования. Например, находка без координат может быть по-разному обработана разными ресурсами, использующими разные алгоритмы геопривязки, что приведет к двум разным наборам координат для одного и того же наблюдения [Reddy, Dávalos, 2003; Serra-Diaz и др., 2017]. Необходимо создание общего стандарта и инструментов для оценки и очистки данных [Belbin и др., 2018; Mesibov, 2018]. Возможна также разработка протоклов перекрёстных ссылок между идентификаторами различных БД [Page, 2018]. Такой подход эфективен, но технологически сложен и труден для освоения, поэтому сложно спрогнозировать насколько этот он будет распространён в дальнейшем. Так или иначе, и концепция Open Science, и FAIR принципы – мощные драйверы развития науки, обеспечивающие синергетический эффект от масштаба и обогащения одних больших данных другими. И пусть не все проблемы на этом пути решены, и не для всех решения просматриваются, это именно те подходы и принципы, от которых зависит дальнейшее развитие наук об окружающей среде [Ball-Damerow и др., 2019; Page, 2008].

Базы данных и их агрегаторы

Примеров успешных и востребованных баз данных о биоразнообразии огромное количество [Ariño, 2010; Owens и др., 2021]. Их исчерпывающий обзор не вписывается в рамки краткого обзора, поэтому ограничимся лишь упоминанием некоторых из них. Ключевой и наиболее универсальный ресурс – GBIF (Global Biodiversity Information Facility). Количество находок там удваивается каждые 1.5–2 года и к настоящему моменту превысило 2.3 млрд. Кроме своей непосредственной функции он предоставляет ряд вспомогательных инструментов для управления данными о биоразнообразии – The Integrated Publishing Toolkit (IPT), Data validator, GBIF Registry of Scientific Collections и другие. Остальные ресурсы первичной информации специализированы на таксоне (например, eBird для птиц [Sullivan и др., 2014; Sullivan и др., 2017]) или регионе (Atlas of Living Australia для Австралии [Belbin и др., 2021], Biodiversity information system for Europe и PESI для Европы [De Jong и др., 2015], Information System about the Brazilian Biodiversity для Бразилии [Dias и др., 2017; Pezzini и др., 2012], Indian Bio-resource Information Network [Saran и др., 2019] и India Biodiversity Portal [Vattakaven и др., 2016] для Индии), или на таксоне и регионе, или наоборот, пытаются вовлечь в себя все [Michener и др., 2012].

Чрезвычайно важно обогащение таких БД пространственными данными и сведениями об окружающей среде, которые используются встроенными инструментами анализа. Это позволяет рассматривать миграции видов, границы ареалов, отслеживать перемещения, картографировать горячие точки биоразнообразия, моделировать численность, экологические ассоциации и многое другое [Saran и др., 2022]. Важными источниками этого обогащения служат БД функциональных характеристиках (traits) биологических видов (которые, впрочем, тоже остро нуждаются в выработке единых стандартов [Gallagher и др., 2020; Schneider и др., 2019]), например TRY plant trait database [Kattge и др., 2020], Ecotaxonomy (для животных, преимущественно почвенных) [Potapov, Sandmann, Scheu, 2019], The World Spider Trait database [Pekár и др., 2021] и другие. Из них всех наиболее комплексная - Encyclopedia of Life (EoL), действующая уже более 20 лет [Wilson, 2003]. Этот портал информацию о филогении и морфологии организмов Земли, их биотических взаимодействиях и др., а также встроенные инструменты анализа [Blaustein, 2009]. Один из них – Virtual Ecological Research Assistant (VERA) – позволяет анализировать экологические сообщества и процессы посредством моделирования пищевых сетей, потоков вещества, энергии и биотических взаимодействий в них [An и др., 2020; An и др., 2018]. Для получения информации о находках портал EoL использует сведения из GBIF. Важен также доступ к БД и непосредственно нуклеотидных последовательностей (GenBank [Benson и др., 2012], The Barcode of Life Data System [Ratnasingham, Hebert, 2007]), аггрегированных данных по таксономии (GBIF Backbone, Catalogue of Life [Bánki и др., 2018]) и даже филогении (Open Tree of Life), которые оперируют филогенетическими деревьями, построенными на нескольких генетических и таксономических источниках.

Источники данных и проекты по цифровизации

Перечисленные выше ресурсы и возможности внушают оптимизм [Nelson, Ellis, 2018]. Процесс оцифровки, начавшийся более 40 лет назад, эксперты характеризуют как лавинообразный [Walter, McPherson, Guralnick, 2012; Филиппова и др., 2017]. Важную роль в этом играют усилия волонтёров и со временем эта роль только возрастает [Chandler и др., 2017] (подробнее о Citizen Science см. ниже). Однако все еще нуждается в оцифровке, географической привязке, индексировании огромное количество данных о биоразнообразии [Reichman, Jones, Schildhauer, 2011; Saran и др., 2022]. В первую очередь это касается таких источников как музейные и частные коллекции, опубликованная литературы, рукописи, полевые дневники.

В США существует национальный портал «Интегрированные оцифрованные биоколлекции» (iDigBio) по продвижению оцифровки. В её фокусе коллекции – биологические и палеонтологические, фотографии образцов и связанные с ними данные. BioCollect, разработанный организацией Atlas of Living Australia, еще более продвинутый и удобный инструмент для сбора данных биоразнообразии, экологии и управлении природными ресурсами (NRM). Он принимает неструктурированные данные в виде « », файлов данных, изображений, звуков и видео. С BioCollect тесно сопряжена краудсорсинговая платформа DigiVol, предназначенная для оцифровки изображений и коллекционных материалов, идентификации, маркировки, распознаванием данных с этикеток и других текстов, в т.ч. из исторических документов [Alony и др., 2020]. Важно отметить, что эта инициатива наиболее близка к предлагаемому нами проекту, отличающееся большей сконцентрированностью географически и меньшей концептуально.

Впрочем, “цифровизация” не лишена проблем [Hardisty, Roberts, The Biodiversity Informatics Community, 2013; Hortal и др., 2015], и помимо технической стороны вопроса, есть и субъективный человеческий фактор. Он определяет неравномерность покрытия регионов планеты данными [Park, Newman, Breckheimer, 2021], что, разумеется, неверно интерпретировать как разницу в видовом богатстве [Daru и др., 2018; Hughes и др., 2021]. Покрытие Северной Америки и Европы пробами наиболее плотное (Рис. 1Б, 1В). На контрасте с этим все еще существует 13% свободной ото льда поверхности суши, на которой в настоящее время нет достоверных географических местоположений растений (Рис. 1А). Эти районы в основном расположены в России (несмотря на значительный недавний прогресс в обмене данными российским сообществом GBIF), Центральной и Юго-Восточной Азии и Северной Африке [Feng и др., 2022; Hughes и др., 2021].


Рис. 1. Плотность покрытия Земли данными о находках живых организмов. А – территории, для которых таких данных нет [по Feng и др., 2022]. Б – находки из систем GBIF и OBIS [по Hughes и др., 2021]. В – области с максимальной плотностью покрытия находками [по Hughes и др., 2021].

Переход к цифрововизации данных о биоразнообразии с энтузиазмом принят российским научным сообществом и уже имеется значительный прогресс [Shashkov, Ivanova, 2019]. Большую роль в этом сыграли специальные программы по мобилизации данных от GBIF и издательствао Pensoft – West of Urals (2020), и Biota of Russia (2021). Среди наиболее деятельных организаций – гербарий МГУ [Серегин и др., 2020; Серегин и др., 2020] и Югорский государственный университет [Filippova и др., 2022; Филиппова и др., 2017]. Однако это касается либо первичных данных (гербарии и другие коллекции), либо инициатив по вовлечению натуралистов в полевые наблюдения. Инициативы по переводу биологических данных из литературы нам неизвестны.

Какими конкретно способами можно интенсифицировать извлечение из текста публикаций информацию о разнообразии и распространении живых организмов? На первый взгляд эта задача решается применением регулярных выражений – синтаксических правил и последовательностей символов, определяющих шаблон поиска в тексте [Фридл, 2008]. Это хорошо работает для извлечения, структурирования и очистки больших объемов текстовых данных, представленных в одном формате [Суховеров, 2019; Козлов, Светлаков, 2022], или хотя бы в ограниченном их количестве [Krause, 2021; Созонтов, 2023]. Однако форматов представления этикеточных данных настолько много, что пришлось бы продумывать правила для каждой отдельно взятой статьи, а следовательно, задача автоматизации не будет решена.

Более перспективным путем выглядит применение методов машинного обучения с учителем. В науках о разнообразии нейросетей находят всё более широкое применение [Borowiec и др., 2022; Høye и др., 2021; Hussein и др., 2022], вплоть до моделирования экосистемных функций и услуг [Scowen и др., 2021]. Наиболее широко известны успехи идентификации видов по фотографиям гербарных листов [Carranza-Rojas и др., 2017; Unger, Merhof, Renner, 2016; White и др., 2020; Younis и др., 2018] и коллекций насекомых [Martineau и др., 2018; Høye и др., 2021; Popkov и др., 2022], однако стоит помнить, что во всех нейросетевых обработках изображений задействованы только свёрточные нейронные сети [Lim, Kim, Kim, 2017], а это всего лишь одна архитектура нейросетей из множества существующих. В извлечении информации из литературы тоже есть прогресс, который сосредоточен в основном на извлечении таксономических названий [Kopperud, Lidgard, Liow, 2019; Rees, Cranston, 2017]. Редкий пример выхода за ти рамки – извлечение морфологических характеристик растений из описаний на испанском языке [Mora, Araya, 2018].

Роль Citizen Science в добыче информации

Citizen science (=«гражданская наука») – это практика вовлечения в научные проекты, людей, не являющихся профессиональными исследователями. Широкую огласку явление получило в начале прошлого десятилетия [Gura, 2013; Hand, 2010]. В наши дни в таких проектах участвуют миллионы людей ежегодно [Callaghan и др., 2019b], из них большая часть в развитых странах, потенциал развивающихся стран пока раскрыт лишь в малой степени [Pocock и др., 2019; Vattakaven и др., 2022].

Самыми резонансными проектами гражданской науки становятся, в основном, астрономические и естественно-научные. Среди них: Spiral Graph – распознавание и спиральных галактик, Globe at Night – анализ светового загрязнения, GLOBE Observer Clouds – наблюдение облаков и других природных явлений для уточнения прогнозов погоды, оптимизации погодных и климатических моделей [Kohl и др., 2021], Phylo – онлайн-игра, за которой стоит выравнивание нуклеотидных последовательностей [Kawrykow и др., 2012], EteRNA – анализ трехмерной структуры РНК и поиск их биологически активных вариантов [Lee и др., 2014], Stall Catchers – анализ кровоснабжения мозга мышей в игровой форме, и другие.

Очень большой охват получают проекты гражданской науки связанные с “дикой” природой – наблюдение за объектами живой природы, анализ гербарных и коллекционных материалов, участие в их сборе или фоторегистрации [Callaghan и др., 2020; Chandler и др., 2017; Hill и др., 2012; Johnston, Matechou, Dennis, 2023]. Успешные примеры реализации это Big Seaweed Search – поиск и регистрация выброшенных на берег водорослей [Brodie и др., 2023], teatime4science использование чайных пакетиков для изучения разложения органического вещества в почве [Keuskamp и др., 2013], платформа и социальная сеть iNaturalist – глобальная регистрация встреч и фотографий биологических видов (рис. 1), пожалуй, крупнейший по охвату проект подобного рода [Di Cecco и др., 2021]. Существуют даже крайне оптимистичные мнения о трансформации науки о биоразнообразии благодаря связке с такими проетами [Pocock и др., 2018; Amano, Lamming, Sutherland, 2016; Pocock и др., 2019], а также о специфических подходах к “зашумлённым” данным такого происхождения [Callaghan и др., 2019a; Johnston, Matechou, Dennis, 2023].

Рис. 1. Плотность покрытия волонтёрскими наблюдениями живых организмов [Di Cecco и др., 2021].

Параллельно с реализацией проектов гражданской науки ведутся исследования её самой как явления, в т.ч. и с практической точки зрения – повышения результативности таких проектов [Brenskelle и др., 2020; Callaghan и др., 2019a; Koch и др., 2022; Van Strien и др., 2022], оценки их эффективности [Callaghan и др., 2022]. Стала понятна общая мотивация волонтеров для участия в Citizen Science, появляются возможноти уточнить их мотивацию участия в конкретном проекте [Levontin и др., 2022]. Так, для участия в проекте по мониторингу насекомых внутренняя мотивация была «развлечься» и «сделать что-то (хорошее) для природы» [Richter и др., 2021], связь с природой, интерес и забота о ней [Ganzevoort и др., 2017], а внешние мотивы – «вклад в науку» и «вклад в охрану природы». При этом к денежному поощрению отношение было отрицательным [Bowler и др., 2022; Richter и др., 2021]. Добровольцы возлагают большие надежды на влияние своих данных как на собственное обучение, так и на науку и управление [Fox и др., 2019; Ganzevoort и др., 2017], что следует учитывать при планировании и реализации проекта. Обратная связь, сгенерированная в виде текста, побуждала волонтёров к вовлеченности и удержанию больше, нежели просто информация в виде уведомлений и инфографики [Van Der Wal и др., 2016], хотя динамическое отображение результатов труда волонтера тоже очень важно [Callaghan и др., 2019b]. Таким образом, вовлечение неспециалистов в исследования и добычу научной информации - популярный и эффективный подход, весь потенциал которого ещё только предстоит раскрыть.

4.6. Методы, подходы, план и ожидаемые результаты

Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта и ожидаемые результаты

Инструменты и технологии оцифровки

Для оптимизации ввода литературных данных мы разработаем веб-приложение рис. 1. Такой способ даёт кроссплатформенность – возможность использования с любого устройства (компьютер, планшет, телефон) и любой операционной системы (Windows, Linux, Android, MacOS, iOS) без необходимости устанавливать какое-либо ПО, просто введя URL-адрес в браузер. У пользователя будет возможность зафиксировать любое из введенных полей для ускоренного многократного ввода остальных. Это актуально как для таксономических публикаций, когда для одного таксона приводится множество находок, так и экологических, где для одной пробы или географической точки приводится множество таксонов. Приложение будет написано на shiny – платформе, специализированной для созданий веб-приложений на языке программирования R [Chang и др., 2022; Sievert, 2020] (примеры). Ядро приложения генерирует веб-страницу, осуществляет контроль за обработкой вводимых и отображаемых данных, оставляет возможности для тонкой настройки пользовательского интерфейса таблицами стилей CSS. Мы предусматриваем встроенные механизмы проверки вводимых данных. Например, для автозаполнения таксономических названий без опечаток ядро приложения будет синхронизировано с базой данных каталога пауков мира [WSC, 2023] пакетом arakno [Cardoso, 2022]. На основе каталога ОКТМО и Росреестра аналогичный подход будет применен для названий административных регионов, районов и населенных пунктов.

Рис. 1. Схема онлайн-приложения


Предзагруженные (публикации, таксономические и географические названия) и вводимые пользователями данные будут структурированы в виде реляционной базы данных (набор таблиц, взаимосвязанных через идентификаторы), созданной и управляемой PostgreSQL (v.14). Таблицы базы: «пользователи», «публикации», «регионы», «таксоны» и ключевая – «записи». Обращение из R в базу данных организует пакет ‘RPostgreSQL’ [Conway и др., 2022]. Одна публикация будет предложена для оцифровки более чем одному пользователю, поэтому внесенные записи будут проходить кросс-верификацию и только в случае совпадения попадать в основную базу, считаясь находками. Внутренняя обработка табличных данных будет выполняться средствами пакетов dplyr [Wickham и др., 2022] и tidyr [Wickham, Girlich, 2022], пространственных данных – sf [Pebesma, 2018], raster [Hijmans, 2022], stars [Pebesma, 2022], визуализация графиков и карт – ggplot2 [Wickham, 2016] и leaflet [Cheng, Karambelkar, Xie, 2022]. Разворачивать приложение и систему управления базами данных (СУБД PostgreSQL) будем на виртуальном сервере под управлением OS Linux Ubuntu Server 22.04 LTS. Все используемые при создании веб-приложения технологии и программы бесплатные.

Онлайн-ресурс будет содержать функции поиска – табличного и пространственного, визуализации и анализа. Мы планируем разработку модулей для подгрузки данных по условиям среды и характеристикам видов пауков. В первом случае это высота н.у.м. – SRTM Digital Elevation Model, климатические данные – WorldClim, растительность – Global Forest Watch Open Data Portal и NASA Earth Observatory, тип землепользования – OpenStreetMap и Global Forest Watch Open Data Portal. Во втором – функциональные признаки (traits) – World Spider Trait database [Pekár и др., 2021], и данные по филогении – последовательности гена COI из Barcode of Life Data System (BOLD) и консенсусные филогенетические деревья из проекта Open Tree of Life. Это позволит включать в анализ расчет не только таксономическое разнообразие, но также функциональный и филогенетический аспект биоразнообразия. Все перечисленные источники являются открытыми и их данные доступны через API (протокол обмена данными между программами напрямую, минуя интерфейс пользователя) или пакеты для R.

Машинное обучение

Для автоматизированного извлечения этикеточных данных из текстов (таксономические названия, локалитеты и координаты места сбора, дата и биотоп сбора и др.) мы разработаем нейросетевую модель методами глубокого обучения, при котором между входным и выходным слоями нейронов расположено до нескольких десятков скрытых слоёв. Исходные тексты будут предварительно разбиваться на фрагменты до 1500 знаков с перекрытием, а затем преобразованы в воспринимаемый нейросетью векторный формат набором алгоритмов Word2Vec. В качестве архитектуры самой нейросети мы опробуем Transformer и рекуррентные нейронные сети. Все перечисленные выше решения оптимизированы под учёт семантического контекста, последовательности слов, зависимостей между словами в тексте, и хорошо зарекомендовали себя задачах, требующих внимания к этим аспектам естественного языка. Обучающая выборка из 40 статей с разнообразными форматами представления этикеточной информации будет сформирована и размечена силами коллектива исполнителей. В дальнейшем мы планируем использовать для дообучения нейросетевой модели статьи, обработанные волонтерами в ходе реализации Citizen Science проекта.

Проблему потенциального переобучения модели (слишком точной подстройки под данные обучающей выборки и неспособности работать на новых, неизвестных данных) мы будем решать регуляризацией моделей. Регуляризация добавляет дополнительный штраф на определенные параметры модели, контролируя переобучение и делая её более робастной. Мы будем применять L1 регуляризацию и Dropout. Первый способ позволяет отбросить ненужные признаки, что релевантно для нашего случая, когда целевые блоки текста строго очерчены, а остальные не информативны. Второй способ случайно обнуляет некоторые из выходов слоя во время обучения, что поможет модели лучше справляться с неточностями, возникшими при распознавании сканов и опечатками, имевшимися в рукописях изначально.

Модельные таксоны и регионы

В качестве пилотного таксона для проекта по оцифровке пауки удобны по ряду причин. Во-первых, их таксономия на уровне родов и видов достаточно стабильна, а номенклатурные акты и даже ошибочно указанные названия проиндексированы в регулярно обновляемом каталоге пауков мира [WSC, 2023; Nentwig, Gloor, Kropf, 2015]. Связь с его данными возможна минуя веб-интерфейс, - через API и arakno – пакет для R [Cardoso, 2022]. Во-вторых, перечень литературных источников, подлежащих оцифровке, исчерпывающий и четко очерченный. С.Л. Есюнин и К.Г. Михайлов в своих каталогах [Esyunin, Efimik, 1996; Mikhailov, 1997; Mikhailov, 2013a; Esyunin, 2023 in print] и библиографических сводках [Михайлов, 2012] тщательно учитывают все публикации по паукам России и Урала. Для Урала это 450 источников. Предварительно оценить объем данных можно взяв 8 фаунистических и таксономических публикаций в качестве примера [Esyunin, Kazantsev, 2007; Azarkina и др., 2018; Fomichev, Ballarin, Marusik, 2022; Mikhailov, 2013b; Sozontov, Esyunin, 2014; Есюнин, Новокшенов, 1992; Танасевич, 1985; Тунева, Есюнин, 2012]. Суммарно в них содержатся сведения о 1 420 находках (=occurrences – любое количество экземпляров одного вида, найденный в одной географической точке, в определенном биотопе, в одну дату и одним методом), основанных на 4 779 особях. Таким образом, общий объем «темных данных», подлежащих оцифровке, можно предварительно оценить в 80 000 находок и 270 000 особей, хотя реальное число может оказаться ниже, поскольку не все из публикаций оперируют находками.

Волонтерский проект

Возможности и перспективы гражданской науки (Citizen Science, принцип действия на рис.1) были освещены в разделе 4.5. Мы реализуем оригинальный подход к оцифровке с привлечением волонтеров, чей труд по оцифровке будем поощрать просветительскими материалами и мероприятиями. Они, будучи организованными квалифицированными экспертами, эксклюзивны, что становится их ключевой ценностью.


Рис. 1. Принцип организации Citizen Science проекта по оцифровке данных о биоразнообразии

Здесь отметим, что волонтерство не предполагает оплаты за труд, но не исключает других источников мотивации и форм поощрения. Последнее особенно актуально при ручной оцифровке данных – достаточно трудоёмком процессе. Это требует поощрения и с точки зрения этики, и с точки зрения поддержания мотивации к участию в проекте. В качестве поощрений мы планируем:

  • Познавательные заметки про строение, биологию, экологию и эволюцию пауков и родственных им групп

  • Лекции по этой же тематике

  • Экскурсии в природу и в естественно-научные музеи

  • Мастер-классы и лабораторные работы на базе университетских коллекций и материально-приборной базы.

О реализации аналогичных проектов нам неизвестно, поэтому на данном этапе установить курс мы не можем. Предварительное анкетирование и тестовый запуск приложения позволят оценить эффективность (скорость и качество) оцифровки литературы. После этого, зная общий объем источников, подлежащих оцифровке, и доступный ресурс экспертов, мы сможем установить обменный курс. Общая схема Citizen Science прокта представлена на рис. 1.


Рис. 1. Схема Citizen Science проекта, реализуемых технологий и потоков данных


4.7. Задел

Имеющийся у научного коллектива научный задел по проекту, наличие опыта совместной реализации проектов

Задел по проекту

Разработана архитектура веб-приложения для оцифровки в рамках citizen science проекта, прототипирован интерфейс его разделов для ввода данных (рис., ссылка). Продумана архитектура реляционной БД с таблицами «публикации», «авторы», «пользователи», «таксоны», «регионы», «записи пользователей», «чистые данные». На базе ОКТМО (Общероссийский классификатор территорий муниципальных образований) подготовлен набор названий населенных пунктов и административных единиц и их соответствия друг другу. Разработан модуль проверки названий таксонов по каталогу пауков мира [WSC, 2023] (в обход средств пакета rgbif, которые все равно обращаются к WSC).

Для апробации подхода собран исчерпывающий список из более чем 450 публикаций, сведения из которых подлежат оцифровке. Из них около 200 изначально цифровые, оставшаяся часть отсканирована на 30%. Получено предварительное согласие о сотрудничестве с организациями, занимающимися экологическим просвещением: центр популяризации биоразнообразия «НатУРАЛист», сообщество «Бёрдинг в Удмуртии» и др. В рамках их мероприятий анонсирован Citizen Science проект по оцифровке и собраны контакты экскурсантов, выразивших желание в этом проекте поучаствовать.

Опыт совместной реализации проектов

Созонтов А.Н. и Иванова Н.В. совместными усилиями подготовили серию пленарных лекций и мастер-классов по информатике биоразнообразия (IV Международное арахнологическое совещание, онлайн; VII полевая школа по почвенной зоологии и экологии, Екатеринбург): «Публикация данных в репозитории GBIF – риск или новые возможности для исследователей?», «Функциональный аспект биоразнообразия», «Открытые репозитории о биоразнообразии: как получить и использовать данные портала GBIF.org», «Подготовка данных о сборах почвенных беспозвоночных для публикации через GBIF», «Работа в R: преодоление психологического барьера». Соколова С.С. и Созонтов А.Н. имеют опыт совместной популяризаторской деятельности – проведения энтомологических экскурсий для детей и взрослых.

4.8. Ресурсы имеющиеся

Перечень оборудования, материалов, информационных и других ресурсов, имеющихся у научного коллектива для выполнения проекта

  • Стационарные компьютеры имеется в достаточном количестве и с соответствующими задачам проекта параметрами

  • Ресурсы ЦКП УрО РАН – вычислительный кластер “Уран”: 1700 CPU Intel Xeon (44 Tflop/s), 165 GPU NVIDIA Tesla (206 Tflop/s), необходимых для обучения нейронных сетей по распознаванию данных о биоразнообразии из научных публикаций

  • Ресурсы сервера Института экологии растений и животных УрО РАН (развертыванияе онлайн-приложения и хостинг сайта проекта)

  • Оптические приборы (микроскопы, бинокуляры, увеличительные стекла) и коллекционные материалы для проведения практических занятий

  • Инструменты для экскурсий для группы до 10 человек (сачки, пинцеты, совки, ножи и ножницы)

  • Собран исчерпывающий перечень литературы, подлежащей оцифровке. Большое количество источников отсканированы в pdf, недостающие источники находятся в библиотеке Пермского национального исследовательского университета и зоологического музея МГУ (оригиналы и ксерокопии)

  • Информационная поддержка сообществ, занимающихся экологическим просвещением и популяризацией: Центр популяризации биоразнообразия , сообщество `

  • Идея проекта была озвучена представителям арахнологического сообщества [Созонтов, 2022] и получила их поддержку

4.9. План работы на первый год

План работы на первый год выполнения проекта

Дорожная карта реализации проекта представлена на рис. 1.

  1. Разработка и тестирование ядра веб-приложения (январь-февраль, Созонтов А.Н., Иванова Н.В.).

  2. Сбор pdf и метаданных публикаций (январь-февраль, Устинова А.Л.).

  3. Разработка и тестирование пользовательского интерфейса и верстка сайта (март-апрель, все исполнители).

  4. Формирование наборов пространственных и таксономических данных (Иванова Н.В., Устинова А.Л.).

  5. Запуск проекта по оцифровке (май, Созонтов А.Н., Соколова С.С.).

  6. Реализация проекта по оцифровке и его оптимизация (июнь-декабрь, Созонтов А.Н., Соколова С.С.).

  7. Разработка модулей для интеграции видовых характеристик и пространственных данных из внешних источников (ноябрь-декабрь).

  8. Работа над рукописью статьи об архитектуре, интерфейсе и функционале веб-приложения (Созонтов А.Н., Иванова Н.В., сентябрь-октябрь).

  9. Предварительный анализ эффективности проекта, подготовка рукописи о нём (ноябрь-декабрь).


Рис. 1. Хронология первого года работы (2024 г.)

4.10. Cодержание работы научного коллектива

Планируемое на первый год содержание работы каждого члена научного коллектива (включая руководителя проекта)

Созонтов А.Н.

Разработка и тестирование ядра веб-приложения, разработка пользовательского интерфейса и верстка сайта. Формирование наборов пространственных и таксономических данных. Запуск проекта по оцифровке и руководство им. Работа над рукописями для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.

Иванова Н.В.

Разработка и тестирование ядра веб-приложения. Формирование наборов пространственных и таксономических данных. Написание документации и руководства для веб-приложения. Работа над рукописями статей об архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.

Соколова С.С.

Тестирование веб-приложения. Разработка дизайна сайта. Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. о Citizen Science проекте по мобилизации данных.

Устинова А.Л.

Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. Работа над рукописью статьи о Citizen Science проекте по мобилизации данных.

4.11. Ожидаемые результаты (год 1)

Ожидаемые в конце первого года конкретные научные результаты

  1. Будет разработано и протестировано ядро веб-приложения для оцифровки данных о находках биологических организмов.

  2. Будут собраны необходимые для проекта по оцифровке pdf и метаданные публикаций.

  3. Будут сформированы наборы пространственных данных с иерархической структурой административных регионов, районов и населенных пунктов исследуемого региона

  4. Будет написана основная часть документации и научно-популярных материалов для сайта

  5. Будет запущен волонёрский проект по оцифровке

  6. Будет подготовлена рукопись статьи о архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов.

  7. Будет подготовлена рукопись статьи, описывающей Citizen Science проект по мобилизации данных

  8. Результаты работы первого года будут представлены в виде докладов на двух конференциях всероссийского уровня

Приобретаемые ресурсы

4.12. Перечень планируемых к приобретению за счет гранта оборудования, материалов, информационных и других ресурсов для выполнения проекта

  • Микрофон-петличка и грмокоговоритель для провередния мероприятий (2 комплекта)

  • Организация дополнительных экскурсий и мастер-классов (через НКО и других партнеров проекта (30 экскурсий ежегодно - 150 т.р.)

  • Услуги по записи видеозаписи и монтажу роликов и популярных лекций (75 т.р.)

  • Полиграфические услуги

  • Ноутбуки для участников проекта

  • Полевое обмундирование для проведения экскурсий

Список литературы

1. Alony I. и др. Online volunteering at DigiVol: an innovative crowd-sourcing approach for heritage tourism artefacts preservation // Journal of Heritage Tourism. 2020. Т. 15. № 1. С. 14–26.
2. Amano T., Lamming J. D. L., Sutherland W. J. Spatial Gaps in Global Biodiversity Information and the Role of Citizen Science // BioScience. 2016. Т. 66. № 5. С. 393–400.
3. An S. и др. Scientific Modeling Using Large Scale Knowledge / под ред. I. I. Bittencourt и др. Cham: Springer International Publishing, 2020. С. 20–24.
4. An S. и др. VERA: Popularizing Science Through AI / под ред. C. Penstein Rosé и др. Cham: Springer International Publishing, 2018. С. 31–35.
5. Ariño A. H. Approaches to estimating the universe of natural history collections data // Biodiversity Informatics. 2010. Т. 7. № 2.
6. Azarkina G. N. и др. A check-list and zoogeographic analysis of the spider fauna (Arachnida: Aranei) of Novosibirsk Area (West Siberia, Russia) // Arthropoda Selecta. 2018. Т. 27. № 1. С. 73–93.
7. Ball-Damerow J. E. и др. Research applications of primary biodiversity databases in the digital age // PLOS ONE. 2019. Т. 14. № 9. С. e0215794.
8. Bánki O. и др. Catalogue of Life Plus: innovating the CoL systems as a foundation for a clearinghouse for names and taxonomy // Biodiversity Information Science and Standards. 2018. Т. 2. С. e26922.
9. Beck J. и др. Whats on the horizon for macroecology? // Ecography. 2012. Т. 35. С. 673–683.
10. Belbin L. и др. Data Quality Task Group 2: Tests and Assertions // Biodiversity Information Science and Standards. 2018. Т. 2. С. e25608.
11. Belbin L. и др. The Atlas of Living Australia: History, current state and future directions // Biodiversity Data Journal. 2021. Т. 9. С. e65023.
12. Belbin L., Williams K. J. Towards a national bio-environmental data facility: experiences from the Atlas of Living Australia // International Journal of Geographical Information Science. 2015. С. 1–20.
13. Benson D. A. и др. GenBank // Nucleic Acids Research. 2012. Т. 41. № D1. С. D36–D42.
14. Bisby F. A. The quiet revolution: Biodiversity informatics and the internet // Science. 2000. Т. 289. С. 2309–2312.
15. Blaustein R. The Encyclopedia of Life: Describing Species, Unifying Biology // BioScience. 2009. Т. 59. № 7. С. 551–556.
16. Bornmann L., Haunschild R., Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases // Humanities and Social Sciences Communications 2021 8:1. 2021. Т. 8. № 1. С. 1–15.
17. Borowiec M. L. и др. Deep learning as a tool for ecology and evolution // Methods in Ecology and Evolution. 2022. Т. 13. № 8. С. 1640–1660.
18. Bowler D. E. и др. Decision-making of citizen scientists when recording species observations // Scientific Reports. 2022. Т. 12. № 1. С. 11069.
19. Brenskelle L. и др. Maximizing human effort for analyzing scientific images: A case study using digitized herbarium sheets // Applications in Plant Sciences. 2020. Т. 8. № 6.
20. Brodie J. и др. The Big Seaweed Search: Evaluating a citizen science project for a difficult to identify group of organisms // Aquatic Conservation: Marine and Freshwater Ecosystems. 2023. Т. 33. № 1. С. 44–55.
21. Callaghan C. T. и др. Three Frontiers for the Future of Biodiversity Research Using Citizen Science Data // BioScience. 2020. С. biaa133.
22. Callaghan C. T. и др. Quantifying effort needed to estimate species diversity from citizen science data // Ecosphere. 2022. Т. 13. № 4.
23. Callaghan C. T. и др. Optimizing future biodiversity sampling by citizen scientists // Proceedings of the Royal Society B: Biological Sciences. 2019a. Т. 286. № 1912. С. 20191487.
24. Callaghan C. T. и др. Improving big citizen science data: Moving beyond haphazard sampling // PLOS Biology. 2019b. Т. 17. № 6. С. e3000357.
25. Cardoso P. arakno: ARAchnid KNowledge Online. R package version 1.3.0: https://CRAN.R-project.org/package=arakno, 2022.
26. Carranza-Rojas J. и др. Going deeper in the automated identification of Herbarium specimens // BMC Evolutionary Biology. 2017. Т. 17. № 1. С. 181.
27. Chandler M. и др. Contribution of citizen science towards international biodiversity monitoring // Biological Conservation. 2017. Т. 213. С. 280–294.
28. Chang W. и др. shiny: Web Application Framework for R // 2022.
29. Cheng J., Karambelkar B., Xie Y. leaflet: Create Interactive Web Maps with the JavaScript ’Leaflet’ Library. R package version 2.1.1,: https://CRAN.R-project.org/package=leaflet, 2022.
30. Conway J. и др. RPostgreSQL: R Interface to the ’PostgreSQL’ Database System // 2022.
31. Cornwell W. K. и др. What we (dont) know about global plant diversity // Ecography. 2019. Т. 42. С. 1819–1831.
32. Daru B. H. и др. Widespread sampling biases in herbaria revealed from large-scale digitization // New Phytologist. 2018. Т. 217. № 2. С. 939–955.
33. Davidson S. C., Ruhs E. C. Understanding the dynamics of Arctic animal migrations in a changing world // Animal Migration. 2021. Т. 8. С. 56–64.
34. De Jong Y. и др. PESI - a taxonomic backbone for Europe // Biodiversity Data Journal. 2015. Т. 3. С. e5848.
35. Di Cecco G. J. и др. Observing the Observers: How Participants Contribute Data to iNaturalist and Implications for Biodiversity Science // BioScience. 2021. Т. 71. № 11. С. 1179–1188.
36. Di Minin E., Correia R. A., Toivonen T. Quantitative conservation geography // Trends in Ecology & Evolution. 2022. Т. 37. № 1. С. 42–52.
37. Dias D. и др. Repatriation Data: More than two million species occurrence records added to the Brazilian Biodiversity Information Facility Repository (SiBBr) // Biodiversity Data Journal. 2017. Т. 5. С. e12012.
38. Escribano N., Galicia D., Ariño A. H. The tragedy of the biodiversity data commons: a data impediment creeping nigher? // Database: the journal of biological databases and curation. 2018. Т. 2018.
39. Esyunin S. L. Catalogue of the spiders (Arachnida, Aranei) of the Urals and Cis-Ural region. Moscow: KMK Scientific Press Ltd, 2023.
40. Esyunin S. L., Efimik V. E. Catalogue of the spiders (Arachnida, Aranei) of the Urals. Moscow: KMK Scientific Press Ltd, 1996.
41. Esyunin S. L., Kazantsev D. K. On the spider (Aranei) fauna of the Pechoro-Ilychskiy Reserve (North Urals), with the description of a new Agroeca species (Liocraniidae) // Arthropoda Selecta. 2007. Т. 16. № 4. С. 245–250.
42. Feng X. и др. A review of the heterogeneous landscape of biodiversity databases: Opportunities and challenges for a synthesized biodiversity knowledge base // Global Ecology and Biogeography. 2022. Т. 31. С. 1242–1260.
43. Filippova N. и др. Yugra State University Biological Collection (Khanty-Mansiysk, Russia): general and digitisation overview // Biodiversity Data Journal. 2022. Т. 10. С. e77669.
44. Fomichev A. A., Ballarin F., Marusik Y. M. A new genus of the family Nesticidae (Arachnida: Aranei) from the Caucasus // Arthropoda Selecta. 2022. Т. 31. С. 99–110.
45. Fox R. и др. Opinions of citizen scientists on open access to UK butterfly and moth occurrence data // Biodiversity and Conservation. 2019. Т. 28. № 12. С. 3321–3341.
46. Gallagher R. V. и др. Open Science principles for accelerating trait-based science across the Tree of Life // Nature Ecology & Evolution. 2020. Т. 4. № 3. С. 294–303.
47. Ganzevoort W. и др. Sharing biodiversity data: citizen scientists concerns and motivations // Biodiversity and Conservation. 2017. Т. 26. № 12. С. 2821–2837.
48. Gura T. Citizen science: Amateur experts // Nature. 2013. Т. 496. № 7444. С. 259–261.
49. Guralnick R., Walls R., Jetz W. Humboldt Core - toward a standardized capture of biological inventories for biodiversity monitoring, modeling and assessment // Ecography. 2018. Т. 41. № 5. С. 713–725.
50. Hand E. Citizen science: People power. Networks of human minds are taking citizen science to a new level // Nature. 2010. Т. 466. № 7307. С. 685–687.
51. Hardisty A., Roberts D., The Biodiversity Informatics Community. A decadal view of biodiversity informatics: challenges and priorities // BMC Ecology. 2013. Т. 13. № 1. С. 16.
52. Heidorn P. B. Shedding Light on the Dark Data in the Long Tail of Science // Library Trends. 2008. Т. 57. № 2. С. 280–299.
53. Hijmans R. raster: Geographic Data Analysis and Modeling. R package version 3.5-29: https://CRAN.R-project.org/package=raster, 2022.
54. Hill A. и др. The notes from nature tool for unlocking biodiversity records from museum records through citizen science // ZooKeys. 2012. Т. 209. С. 219–233.
55. Hobern D. и др. Connecting data and expertise: A new alliance for biodiversity knowledge // Biodiversity Data Journal. 2019. Т. 7. № e33679. С. 1–20.
56. Hoogen J. и др. A global database of soil nematode abundance and functional group composition // Nature Scientific Data. 2020. Т. 7. № 103. С. 1–8.
57. Hortal J. и др. Seven Shortfalls that Beset Large-Scale Knowledge of Biodiversity // Annual Review of Ecology, Evolution, and Systematics. 2015. Т. 46. № 1. С. 523–549.
58. Høye T. T. и др. Deep learning and computer vision will transform entomology // Proceedings of the National Academy of Sciences. 2021. Т. 118. № 2. С. e2002545117.
59. Hughes A. C. и др. Sampling biases shape our view of the natural world // Ecography. 2021. Т. 44. № 9. С. 1259–1269.
60. Hussein B. R. и др. Applications of computer vision and machine learning techniques for digitized herbarium specimens: A systematic literature review // Ecological Informatics. 2022. Т. 69. С. 101641.
61. Ivanova N. V., Shashkov M. P. Biodiversity databases in Russia: towards a national portal // Arctic Science. 2017. Т. 3. № 3. С. 560–576.
62. Johnston A., Matechou E., Dennis E. B. Outstanding challenges and future directions for biodiversity monitoring using citizen science data // Methods in Ecology and Evolution. 2023. Т. 14. № 1. С. 103–116.
63. Kattge J. и др. TRY plant trait database enhanced coverage and open access // Global Change Biology. 2020. Т. 26. № 1. С. 119–188.
64. Kawrykow A. и др. Phylo: A Citizen Science Approach for Improving Multiple Sequence Alignment // PLoS ONE. 2012. Т. 7. № 3. С. e31362.
65. Keil P., Chase J. M. Global patterns and drivers of tree diversity integrated across a continuum of spatial grains // Nature Ecology & Evolution. 2019. № 3. С. 390–399.
66. Keuskamp J. A. и др. Tea Bag Index: a novel approach to collect uniform decomposition data across ecosystems // Methods in Ecology and Evolution. 2013. Т. 4. № 11. С. 1070–1075.
67. Koch W. и др. Maximizing citizen scientists contribution to automated species recognition // Scientific Reports. 2022. Т. 12. № 1. С. 7648.
68. Kohl H. A. и др. GLOBE Observer and the GO on a Trail Data Challenge: A Citizen Science Approach to Generating a Global Land Cover Land Use Reference Dataset // Frontiers in Climate. 2021. Т. 3. С. 620497.
69. König C. и др. Biodiversity data integrationthe significance of data resolution and domain // PLoS Biology. 2019. Т. 17(3). № e3000183. С. 1–16.
70. Kopperud B. T., Lidgard S., Liow L. H. Text-mined fossil biodiversity dynamics using machine learning // Proceedings of the Royal Society B: Biological Sciences. 2019. Т. 286. № 1901. С. 20190022.
71. Krause T. B. Cleaning data with OpenRefine // Folia Linguistica. 2021. Т. 55. № s42-s2. С. 527–533.
72. Lee J. и др. RNA design rules from a massive open laboratory // Proceedings of the National Academy of Sciences. 2014. Т. 111. № 6. С. 2122–2127.
73. Levontin L. и др. Standardizing the Assessment of Citizen Scientists Motivations: A Motivational Goal-Based Approach // Citizen Science: Theory and Practice. 2022. Т. 7. № 1. С. 25.
74. Lim S., Kim S., Kim D. Performance effect analysis for insect classification using convolutional neural network. Penang: IEEE, 2017. С. 210–215.
75. Martineau M. и др. Effective Training of Convolutional Neural Networks for Insect Image Recognition / под ред. J. Blanc-Talon и др. Cham: Springer International Publishing, 2018. С. 426–437.
76. Mesibov R. An audit of some processing effects in aggregated occurrence records // ZooKeys. 2018. Т. 751. С. 129–146.
77. Michener W. K. и др. Participatory design of DataONEEnabling cyberinfrastructure for the biological and environmental sciences // Ecological Informatics. 2012. Т. 11. С. 5–15.
78. Mikhailov K. G. Catalogue of the spiders of the territories of the former Soviet Union. Moscow: Zoological museum of the Moscow State University, 1997.
79. Mikhailov K. G. The spiders (Arachnida: Aranei ) of Russia and adjacent countries: a non-annotated checklist // Arthropoda Selecta. 2013a. № Suppl. 3. С. 1–262.
80. Mikhailov K. G. On the spider fauna (Arachnida: Aranei) of the Mordovian State Reserve, Russia: preliminary results // Arthropoda Selecta. 2013b. Т. 22. С. 301–310.
81. Mora M., Araya J. Semi-automatic Extraction of Plants Morphological Characters from Taxonomic Descriptions Written in Spanish // Biodiversity Data Journal. 2018. Т. 6. С. e21282.
82. Mukhacheva S. V., Davydova Y. A., Sozontov A. N. Small mammals of background areas in the vicinity of the Karabash copper smelter (Southern Ural, Russia) // Biodiversity Data Journal. 2022. Т. 9. № e70599. С. 1–19.
83. Mukhacheva S. V., Sozontov A. N. Long-term Dynamics of Small Mammal Communities in the Period of Reduction of Copper Smelter Emissions: 2. β-Diversity // Russian Journal of Ecology. 2021. Т. 52. № 6. С. 533–542.
84. Nelson G., Ellis S. The history and impact of digitization and digital data mobilization on biodiversity research // Phil. Trans. R. Soc. B. 2018. Т. 374. № 20170391. С. 1–9.
85. Nentwig W., Gloor D., Kropf C. Spider taxonomists catch data on web // Nature. 2015. Т. 528. № 7583. С. 479–479.
86. Owens H. L. и др. occCite: Tools for querying and managing large biodiversity occurrence datasets // Ecography. 2021. Т. 44. № 8. С. 1228–1235.
87. Page R. Liberating links between datasets using lightweight data publishing: an example using plant names and the taxonomic literature // Biodiversity Data Journal. 2018. Т. 6. С. e27539.
88. Page R. D. M. Biodiversity informatics: the challenge of linking data and the role of shared identifiers // Briefings in Bioinformatics. 2008. Т. 9. № 5. С. 345–354.
89. Park D. S., Newman E. A., Breckheimer I. K. Scale gaps in landscape phenology: challenges and opportunities // Trends in Ecology & Evolution. 2021. Т. 36. № 8. С. 709–721.
90. Pebesma E. Simple Features for R: Standardized Support for Spatial Vector Data // The R Journal. 2018. Т. 10. № 1. С. 439–446.
91. Pebesma E. Spatiotemporal Arrays, Raster and Vector Data Cubes // 2022.
92. Pekár S. и др. The World Spider Trait database: a centralized global open repository for curated data on spider traits // Database: the journal of biological databases and curation. 2021. Т. 2021. С. baab064.
93. Pezzini F. и др. The Brazilian Program for Biodiversity Research (PPBio) Information System // Biodiversity & Ecology. 2012. Т. 4. С. 265–274.
94. Phillips H. R. P. и др. Global data on earthworm abundance, biomass, diversity and corresponding environmental properties // Nature Scientific DataScientific Data. 2021. Т. 8. № 136. С. 1–12.
95. Pocock M. J. O. и др. A Vision for Global Biodiversity Monitoring With Citizen Science. : Elsevier, 2018. С. 169–223.
96. Pocock M. J. O. и др. Developing the global potential of citizen science: Assessing opportunities that benefit people, society and the environment in East Africa // Journal of Applied Ecology. 2019. Т. 56. № 2. С. 274–281.
97. Popkov A. и др. Machine learning for expert-level image-based identification of very similar species in the hyperdiverse plant bug family Miridae (Hemiptera: Heteroptera) // Systematic Entomology. 2022. Т. 47. № 3. С. 487–503.
98. Potapov A., Sandmann D., Scheu S. Ecotaxonomy: Linking traits, taxa, individuals and samples in a flexible virtual research environment for ecological studies // Biodiversity Information Science and Standards. 2019. Т. 3. С. e37166.
99. Ratnasingham S., Hebert P. D. N. BARCODING: bold: The Barcode of Life Data System // Molecular Ecology Notes. 2007. Т. 7. № 3. С. 355–364.
100. Reddy S., Dávalos L. M. Geographical sampling bias and its implications for conservation priorities in Africa: Sampling bias and conservation in Africa // Journal of Biogeography. 2003. Т. 30. № 11. С. 1719–1727.
101. Rees J., Cranston K. Automated assembly of a reference taxonomy for phylogenetic data synthesis // Biodiversity Data Journal. 2017. Т. 5. С. e12581.
102. Reichman O. J., Jones M. B., Schildhauer M. P. Challenges and Opportunities of Open Data in Ecology // Science. 2011. Т. 331. № 6018. С. 703–705.
103. Richter A. и др. Motivation and support services in citizen science insect monitoring: A cross-country study // Biological Conservation. 2021. Т. 263. С. 109325.
104. Rodionov I. V., Sozontov A. N. On Confidence Estimation Based on Quantitative Similarity Coefficients // Automation and Remote Control. 2020. Т. 81. № 2. С. 272–284.
105. Saran S. и др. A comprehensive review on biodiversity information portals // Biodiversity and Conservation. 2022. Т. 31. № 5-6. С. 1445–1468.
106. Saran S. и др. Indian Bioresource Information Network (IBIN) / под ред. R. R. Navalgund, A. S. Kumar, S. Nandy. Singapore: Springer Singapore, 2019. С. 251–264.
107. Schneider F. D. и др. Towards an ecological trait-data standard // Methods in Ecology and Evolution. 2019. Т. 10. № 12. С. 2006–2019.
108. Schulman L. и др. the Finnish Biodiversity Information Facility as a best-practice model for biodiversity data infrastructures // Nature Scientific Data. 2021. Т. 8. № 137. С. 1–16.
109. Scowen M. и др. The current and future uses of machine learning in ecosystem service research // Science of The Total Environment. 2021. Т. 799. С. 149263.
110. Serra-Diaz J. M. и др. Big data of tree species distributions: how big and how good? // Forest Ecosystems. 2017. Т. 4. № 1. С. 30.
111. Shashkov M., Ivanova N. Considerable Progress in Russian GBIF Community // Biodiversity Information Science and Standards. 2019. Т. 3. С. e37015.
112. Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Boca Raton, FL: CRC Press, 2020.
113. Sozontov A. N. Spiders of the Udmurt Republic, Russia // Biodiversity Data Journal. 2021. Т. 9. № e70534. С. 1–27.
114. Sozontov A. N., Esyunin S. L. On the spider fauna (Arachnida: Aranei) of the ’Ust’-Belsk’ Natural Park and its vicinities // Arthropoda Selecta. 2014. Т. 23. № 3. С. 301–310.
115. Sozontov A. N., Esyunin S. L. Spiders of the Udmurt Republic: fauna, ecology, phenology and distribution. Moscow: KMK Scientific Press, 2022.
116. Sozontov A. N., Esyunin S. L., Ukhova N. L. Spiders (Arachnida: Araneae) of the Visim Biosphere Reserve (Middle Urals): 37 years of arachnological research // Biodiversity Data Journal. 2023.
117. Staude I. R. и др. Directional turnover towards larger-ranged plants over time and across habitats // Ecology Letters. 2022. Т. 25. № 2. С. 466–482.
118. Sullivan B. L. и др. Using open access observational data for conservation action: A case study for birds // Biological Conservation. 2017. Т. 208. С. 5–14.
119. Sullivan B. L. и др. The eBird enterprise: An integrated approach to development and application of citizen science // Biological Conservation. 2014. Т. 169. С. 31–40.
120. Thelwall M., Sud P. Scopus 19002020: Growth in articles, abstracts, countries, fields, and journals // Quantitative Science Studies. 2022. Т. 3. № 1. С. 37–50.
121. Unger J., Merhof D., Renner S. Computer vision applied to herbarium specimens of German trees: testing the future utility of the millions of herbarium specimen images for automated identification // BMC Evolutionary Biology. 2016. Т. 16. № 1. С. 248.
122. Van Der Wal R. и др. The role of automated feedback in training and retaining biological recorders for citizen science: Automated Feedback for Citizen Science // Conservation Biology. 2016. Т. 30. № 3. С. 550–561.
123. Van Strien A. J. и др. Improving citizen science data for long-term monitoring of plant species in the Netherlands // Biodiversity and Conservation. 2022. Т. 31. № 11. С. 2781–2796.
124. Vattakaven T. и др. Best Practices for Data Management in Citizen Science - An Indian Outlook // Biodiversity Informatics. 2022. Т. 17.
125. Vattakaven T. и др. India Biodiversity Portal: An integrated, interactive and participatory biodiversity informatics platform // Biodiversity Data Journal. 2016. Т. 4. С. e10279.
126. Walter J., McPherson J. M., Guralnick R. P. Integrating biodiversity distribution knowledge: toward a global map of life // Trends in Ecology & Evolution. 2012. Т. 27. № 3. С. 151–159.
127. White A. E. и др. Generating segmentation masks of herbarium specimens and a data set for training segmentation models using deep learning // Applications in Plant Sciences. 2020. Т. 8. № 6.
128. Wickham H. ggplot2: Elegant Graphics for Data Analysis. New York, NY: Springer-Verlag, 2016.
129. Wickham H. и др. dplyr: A Grammar of Data Manipulation. R package version 1.0.10: https://CRAN.R-project.org/package=dplyr, 2022.
130. Wickham H., Girlich M. tidyr: Tidy Messy Data. R package version 1.2.1: https://CRAN.R-project.org/package=tidyr, 2022.
131. Wieczorek J. и др. Darwin Core: An Evolving Community-Developed Biodiversity Data Standard // PLoS ONE. 2012. Т. 7. № 1. С. e29715.
132. Wilkinson M. D. и др. The FAIR Guiding Principles for scientific data management and stewardship // Scientific Data. 2016. Т. 3. № 160018. С. 1–9.
133. Wilson E. O. The encyclopedia of life // Trends in Ecology & Evolution. 2003. Т. 18. № 2. С. 77–80.
134. WSC. World spider catalogue. Version 24 // 2023.
135. Younis S. и др. Taxon and trait recognition from digitized herbarium specimens using deep convolutional neural networks // Botany Letters. 2018. Т. 165. № 3-4. С. 377–383.
136. Бельская Е. А. и др. Напочвенные членистоногие темнохвойного леса после снижения выбросов медеплавильного завода: происходит ли восстановление сообществ? // Экология. 2023.
137. Гасилин В. В. и др. Изменения состава и относительного обилия копытных евразийской лесостепной зоны в голоцене // Зоологический Журнал. 2021. Т. 100. № 12. С. 220–231.
138. Есюнин С. Л., Новокшенов В. Г. Интересные находки пауков (Aranei) из Юганского заповедника // Труды зоологического института АН СССР. 1992. Т. 226. С. 115–117.
139. Козлов С. В., Светлаков А. В. Применение регулярных выражений для обработки текстовых данных // International Journal of Open Information Technologies. 2022. Т. 10. № 9. С. 82–98.
140. Малых Д. А., Созонтов А. Н. Микростациальное распределение наземных членистоногих в лесах Свердловской области. Екатеринбург: Альфа Принт, 2022. С. 102–104.
141. Родионов И. В., Созонтов А. Н. К вопросу о статистической значимости коэффициентов сходства. Екатеринбург: Гуманитарный университет, 2019. С. 595–595.
142. Серегин А. П. и др. Флора России на платформе iNaturalist: большие данные о биоразнообразии большой страны // Журнал общей биологии. 2020. Т. 81. № 3. С. 223–233.
143. Созонтов А. Н. Интегративный подход к гетерогенным данным из открытых источников, 2023. С. in print.
144. Созонтов А. Н. Пауки (Aranei) Удмуртской Республики: разнообразие, биотопические комплексы, структура населения. Автореф. дисс. канд. биол. н. Ижевск:, 2018.
145. Созонтов А. Н. Мобилизация данных о распространении пауков (Araneae) России с привлечением возможностей citizen science. М.: Т-во научных изданий КМК, 2022. С. 153.
146. Созонтов А. Н. и др. Восстановление населения напочвенных членистоногих после снижения выбросов медеплавильного завода. Улан-Удэ: Изд-во БНЦ СО РАН, 2022. С. 152–154.
147. Суховеров В. С. Система автоматической обработки тематически ориентированных текстов с терминологическим словарем в формате регулярных выражений // №2 (2019). 2019. № 2.
148. Танасевич А. В. К изучению пауков (Aranei) Полярного Урала. Л.: Зоологический институт АН СССР, 1985. С. 52–62.
149. Тунева Т. К., Есюнин С. Л. К фауне пауков (Aranei) Леоновских гор (Челябинская область) // Евразиатский Энтомологический Журнал. 2012. Т. 11. С. 373–377.
150. Филиппова Н. В. и др. Информатика биоразнообразия: мировые тенденции, состояние дел в России и развитие направления в Ханты-Мансийском автономном округе // Динамика окружающей среды и глобальные изменения климата. 2017. Т. 8. № 2. С. 46–56.
151. Фридл Д. Регулярные выражения. 3-е изд. СПб: Символ-Плюс, 2008.

Глоссарий